Agora que já discutimos alguns conceitos básicos de estatística e as etapas gerais de um levantamento estatístico, vamos apresentar como é feito o registro e a organização de dados referentes a uma certa coleta de dados. Começaremos com a planilha para o registro dos dados e a tabela de dados brutos resultante. Logo em seguida, discutiremos como fazer a apuração dos dados.
Para coletar dados, o pesquisador necessitará armazenar os dados coletados em algum lugar. Assim, se faz necessário organizar uma planilha. Com o advento da computação, grande parte dos profissionais da área de estatística registram dados em uma planilha eletrônica1 Softwares como Calc (OpenOffice), Microsoft Excel (Office) e Google Sheets (Google) são exemplos de softwares que trabalham com planilhas eletrônicas.. No entanto, os dados também podem ser registrados em meio físico como, por exemplo, fichas, cadernos ou cadernetas, ou seja, a chamada planilha física.
As planilhas eletrônicas podem ser construídas a partir de planilhas físicas ou serem alimentadas por algum instrumento de coleta em meio eletrônico (formulário ou questionário)2 O Google Forms, por exemplo, cria e alimenta uma planilha eletrônica a partir do formulário de coleta.. Vamos apresentar como se desenha uma planilha física para registro dos dados. Se você tiver possibilidade, pode experimentar como organizar os dados em uma planilha eletrônica.
Célula D2, no cruzamento da coluna D com a linha 2.
Exemplo: considere o exemplo adaptado de (MORETTIN; BUSSAB, 2017MORETTIN, P. A.; BUSSAB, W. de O. Estatística básica. Tradução. 9. ed. São Paulo: Saraiva, 2017. ). Um pesquisador está interessado em fazer um levantamento sobre alguns aspectos socioeconômicos dos empregados da seção de orçamentos da Companhia MB, um grupo de 15 pessoas. Temos a seguinte planilha para registrar os dados do grupo.
Planilha física para o registro dos dados do grupo de 15 empregados da seção de orçamentos da Companhia MB.
Após a coleta de dados, o pesquisador tem em sua planilha o registro dos dados brutos.
Planilha com o registro dos dados brutos do grupo de 15 empregados da seção de orçamentos da Companhia MB. EF, EM e S representam Ensino Fundamental, Ensino Médio e Superior, respectivamente.
Para responder tais perguntadas, precisaremos resumir os dados de alguma forma. Na próxima seção discutiremos a etapa de apuração dos dados.
No exemplo apresentado anteriormente, foram coletadas as seguintes variáveis: estado civil, grau de instrução, número de filhos, salário, idade e região de procedência. Note que estas são variáveis de diferentes tipos4 Exercício: classifique cada uma destas variáveis em qualitativa nominal, qualitativa ordinal, quantitativa discreta e quantitativa contínua..
Se quisermos saber quantos solteiros e quantos casados trabalham na seção de orçamentos da Companhia MB devemos escrever os valores possíveis da variável estado civil5 Pergunta: a ordem de escrita dos valores possíveis da variável estado civil importa? Por que?.
Logo após, precisamos inspecionar cada registro da tabela de dados brutos e marcar um traço ao lado de solteiro, para cada indivíduo solteiro inspecionado, e um traço ao lado de casado para cada indivíduo casado inspecionado. A cada quatro traços, corta-se com um traço, e este conjunto representa uma contagem de cinco indivíduos.6 No inglês, tally marks (marcas de registro).
Desta forma, verificamos que na seção de orçamentos da Companhia MB trabalham oito solteiros e sete casados. Duas outras formas alternativas de se fazer a apuração dos dados são apresentadas a seguir7 Comentário: é fácil apurar uma pequena massa de dados, como no caso do exemplo. Já uma grande massa de dados tornará a tarefa difícil e entediante. Além disso, com um grande volume de dados, a probabilidade de incorrermos em erros aumenta! Necessitaremos do auxílio de pacotes estatísticos!.
Para apurar dados de grau de instrução (variável qualitativa ordinal), o procedimento é similar ao adotado para apurar dados nominais. A diferença é que, para dados ordinais, impõe-se uma ordem. Contudo, a apuração se faz por contagem.
Para apurar o número de filhos (variável quantitativa discreta), também devemos fazer uma contagem. Escrevemos os resultados respeitando a ordem numérica.
Em geral, os dados contínuos são apresentados na forma como foram coletados, porque assumem valores diferentes, mesmo em amostras pequenas. É o caso da variável idade no exemplo considerado: os empregados da seção de orçamentos da Companhia MB tinham idades diferentes. No entanto, é possível organizar as idades por faixas, como veremos nas aulas seguintes.
Faça uma pequena coleta de dados incluindo pelo menos uma variável de cada tipo (qualitativa nominal, qualitativa ordinal, quantitativa discreta e quantitativa contínua).
REsta seção é complementar. São apresentadas algumas poucas funções em R relacionadas a discussão da aula. Para tal, vamos utilizar o exemplo original de (MORETTIN; BUSSAB, 2017MORETTIN, P. A.; BUSSAB, W. de O. Estatística básica. Tradução. 9. ed. São Paulo: Saraiva, 2017. ) sobre os dados dos empregados da seção de orçamentos da Companhia MB. A planilha eletrônica correspondente encontra-se no arquivo companhia_mb.xlsx. Vamos começar carregando os dados para o R. Existem várias formas de se carregar arquivos de dados em diferentes no R. Como arquivo de interesse encontra-se no formato do Excel (xlsx), vamos utilizar a função read_excel do pacote readxl8 Caso você não tenha o pacote, instale-o:install.packages("readxl")..
# install.packages("readxl")
library(readxl)
dados <- read_excel(path = "companhia_mb.xlsx")
class(dados) # classe do objeto dados
## [1] "tbl_df" "tbl" "data.frame"
dim(dados) # dimensão do objeto dados
## [1] 36 7
Note que o objeto dados é uma tabela de dados bruto.
head(dados) # apresenta as primeiras linhas do objeto dados
## # A tibble: 6 x 7
## N `Estado Civil` `Grau de Instru~ `N de Filhos` `Salario (x Sal~ Idade
## <dbl> <chr> <chr> <dbl> <dbl> <dbl>
## 1 1 solteiro ensino fundamen~ NA 4 26
## 2 2 casado ensino fundamen~ 1 4.56 32
## 3 3 casado ensino fundamen~ 2 5.25 36
## 4 4 solteiro ensino médio NA 5.73 20
## 5 5 solteiro ensino fundamen~ NA 6.26 40
## 6 6 casado ensino fundamen~ 0 6.66 28
## # ... with 1 more variable: `Região de Procedência` <chr>
A função table retorna contagens dos valores de cada variável, e portanto, podemos utilizar esta função para a apuração dos dados.
table(dados$`Estado Civil`) # apura dados nominais
##
## casado solteiro
## 20 16
table(dados$`Grau de Instrução`) # apura dados ordinais
##
## ensino fundamental ensino médio superior
## 12 18 6
table(dados$`N de Filhos`) # apura dados discretos
##
## 0 1 2 3 5
## 4 5 7 3 1
dados$Idade # apura dados contínuos
## [1] 26 32 36 20 40 28 41 43 34 23 33 27 37 44 30 38 31 39 25 37 30 34 41 26 32
## [26] 35 46 29 40 35 31 36 43 33 48 42